数据分析实践项目101
数据科学家是一个很酷选的工作,不是吗?
可是要让自己走上变成一个数据科学家的第一步了?你需要什么了?
答案是get your hand dirty,去做一个项目。
可是该做什么了?不会写代码可以吗?下面的项目可以带你迈出第一步。
词频分析是一项简单而实用的分析技术,也是本项目的核心技术。下面描述具体怎么做
首先找到最近几年的经济学人,分别将其转换为txt格式。这里选择英文版是英文不需要做分词(用空格就可以了)。之后用python或者其他什么你熟悉的编程语言来统计不同文章的词频,之后将上一步产生的词频数据导入excel,寻找变化趋势,对数据可视化。不会写统计词频的代码,网上有很多现成的代码,你需要的是能将其运行起来,并改的能为你所用。
这看起来不难,但难的是数据分析的部分,你得出了词频是原始数据,而表示变化趋势的要是百分数。这里谁去做分母,是否要考虑不同年份的文章长短不同的影响。是仅仅统计一个词出现的次数,还是关注在这一年的文章中这个词出现在多少篇文章中,或者讲粒度放的更宽,看看有多少期杂志的文章提到了这个词。接下来,可对词语进行归类,将不同的词按照不同的维度归并,来看到更宏观的趋势。
下一步是怎么表示自己发现的问题,描述数据,首先要将清楚数据本身的含义和局限,之后要给出对所发现趋势的解释以及其背后所代表的意义。
这只是第一步的调查,接下来有兴趣的童鞋可以去问更进一步的问题,比如将词语按词性分类,那些形容词在Economist杂志中被最经常用到,那些形容词成为了最近几年的热词。有些最近出现的词语由于分词技术被分成了多项,比如(gene editing和virtual reality),如何修改你的程序,让这些本该被统计在一起的词语不干扰你的数据。
解决了这些问题,你就可以做横向的比较了。将数据来源从Economist换成纽约时报,华尔街日报等,这次你不一定需要统计完整的词频,只需要统计一下你关心的词语在不同刊物上出现的次数,再对数据进行归一化,即将去除不同来源数据本身大小的影响,我们就可以去做聚类,无论是用PCA(参考该怎么看待降维这件事)还是tsne,都有开源的包,我们可以根据词频来判断不同媒体的属性。只是这里的关键变成了选择那些词语的频率,而这里就是所谓的特征选择,你看看你变换不同类型的词语,比如先看看就科技问题的报道,你关注的这些媒体是否会聚成几类,这种聚类是否符合你的预期,再换一组描述国际关系的词语,看看是否会生成不同的聚类结果。
拿数据说话,是未来任何职业都必须的技能。如果你对这个项目感兴趣,欢迎你将你尝试和分析的结果写下来,发到guoruidong517@126.com,我们会在公众号上展示你的结果,并将打赏的钱发给你的。不过这都不是最终目的,最终目的是为了让自己有所提高。在巡洋舰AI时代招你远航中,很多小伙伴有兴趣,不过缺少能快速上手的项目,这不有了吗?
如果你有进一步的问题,欢迎联系铁哥,微信号 ironcruiser 。
更多阅读